#AI 推理
【CES 2026】黃仁勳的推理戰爭-AI推理成本暴跌90%
上一會還在沉浸在機器人,車機在 CES 的震撼(見當科技停止講故事,開始拼執行力:從 CES 2026,看全球科技進入“現即時代”),下一秒拉斯維加斯的CES展會剛結束,那個永遠穿黑色皮衣的老黃——黃仁勳,又讓整個科技圈坐不住了。這次他沒有再站在台上喊"我們的算力有多強",而是拋出了一個更實在的問題:"用AI太貴了,得降價。"聽起來有點像淘寶商家的思路?但這次不一樣。當大家還在為搶到NVIDIA上一代晶片擠破頭時,他直接甩出了下一代平台——Rubin。更關鍵的是,他喊出了一句話:訓練AI的戰爭結束了,接下來打的是推理戰爭。(圖片來源@dotey)01 什麼是"推理戰爭"?先說個簡單的例子。想像你在學開車。"訓練"就是駕校教練一遍遍教你的過程,需要時間和教練的精力。AI公司這幾年就是這麼幹的——砸錢買幾萬塊GPU,沒日沒夜地訓練模型。"推理"就是你自己開車上路,每次看到紅綠燈做判斷、遇到行人踩剎車。這才是AI真正被使用的時候。過去三年,科技巨頭們瘋狂干的事就是"訓練"——花大錢、用成千上萬塊GPU,把ChatGPT、Claude這些模型訓練得越來越聰明。但問題來了:模型是聰明了,真正用的時候太貴了。就像你花100萬請了個世界冠軍教你開車,結果每次出門還得再付100塊"使用費"。出門一趟兩趟還好,天天誰受得了?這就是黃仁勳要解決的問題:讓AI真正用得起。這次CES上,他沒再吹"我們的晶片有多牛",而是一直在講"怎麼把成本打下來"。Rubin平台這次能做到什麼程度?同樣的AI任務,成本只要原來的十分之一。以前花1美元能做的事,現在10美分就夠了。什麼概念?就像你原來打一次車要100塊,現在降到10塊,原本偶爾打打車,現在可能天天打都無所謂。只有算力便宜到這個份上,AI應用才能真正爆發。02 Rubin是怎麼做到的?NVIDIA這次玩了個新花樣。以前顯示卡時代,大家都想著怎麼把單塊顯示卡做更強。有點像小時候搭積木,總想著搭個最高的塔。但黃仁勳說:單塊積木再高也有限制,不如搭個"團隊"。所以Rubin平台一口氣放出了6塊不同的晶片:Rubin GPU:負責"計算"的大腦Vera CPU:負責調度的管家NVLink 6:連接所有晶片的高速公路還有其他幾塊專門負責網路、資料流動的晶片這6塊晶片不是隨便湊一起,而是像一支配合默契的足球隊——前鋒、中場、後衛、守門員各司其職,比一個人單打獨鬥強多了。最終結果呢?整個平台的推理性能達到上一代的5倍。成本反而降到了1/10。這就是"團隊作戰"的威力。特別要說一下NVLink 6。精準地說:NVLink 6是連接多塊GPU的"高速公路",頻寬達到3.6TB/s。它讓多塊GPU能像一塊一樣協同工作,是實現相較於上一代有"5倍性能提升"的關鍵一環,但不是唯一因素。整個5倍提升是6塊晶片一起發力的結果。有點像裝修房子:NVLink 6是寬敞的走廊,讓各房間連接順暢但房子好不好用,還得看客廳、臥室、廚房怎麼配合03 讓AI學會"思考"光有便宜的算力還不夠,AI還得"聰明"。之前很多自動駕駛AI像什麼?像只會條件反射的蟲子。看到紅燈停,看到綠燈行,遇到沒見過的情況就懵了。NVIDIA這次開放原始碼的Alpamayo模型,想教AI學會"思考"。什麼意思?想像你在開車,突然遇到一個壞掉的紅綠燈——既不紅也不綠,就那麼黃燈閃啊閃的。條件反射式的AI會怎麼做?可能直接卡住,因為"題庫"裡沒這題。但真正會"思考"的AI會琢磨:周圍的車在幹嘛?大家都在慢慢通過,看來可以走。但要小心點,隨時準備剎車。這種"琢磨"的過程,就是Alpamayo想教給AI的能力。它加入了"思維鏈"功能,讓AI不再是死記硬背,而是學會像人一樣推理。有人說得挺形象:以前的AI是背題庫,Alpamayo是教機器解題的方法。更關鍵的是,NVIDIA把這個模型開源了——相當於把解題思路免費公開,讓誰都能拿去用。為何這麼做?用黃仁勳的話說:軟體都免費了,開發者想用好,自然就得買NVIDIA的硬體來跑它。這招挺聰明的。就像印表機廠家把印表機賣得很便宜,靠賣墨盒賺錢。NVIDIA是把"墨盒"免費了,但你要用還得買它的"印表機"。04 這對普通人意味著什麼?說了這麼多,跟普通人有啥關係?如果你是個使用者:以後你用的AI應用可能會更便宜。因為算力成本降了,那些靠AI生成的圖片、視訊、客服聊天,價格都可能跟著降。如果你是個開發者:搭AI應用的成本會大幅降低。以前可能因為太貴不敢做的項目,現在可以試試了。而且NVIDIA開源了Alpamayo,你可以直接拿去用,不用從零開始。如果你是投資者:NVIDIA在賭下一個大方向:AI從"實驗室"走向"真實世界"。你看它這次和奔馳合作,直接把整套自動駕駛系統裝到2026年上市的CLA車型上。還在往人形機器人領域使勁。ChatGPT只是AI的開始,真正的大市場是那些能跑、能跳、能幹活的機器。總之,AI可能真的要從"昂貴的高科技玩具"變成"像水電一樣的基礎設施"了。至於這一天什麼時候真正到來?那就看Rubin平台2026年下半年正式出貨後的表現了。05 摩爾定律慢下來了,黃仁勳沒有摩爾定律說的是晶片性能每18個月翻一番。但現在這個定律已經明顯慢下來了——物理快到極限了。但黃仁勳沒有等。從Hopper到Blackwell,再到現在的Rubin,NVIDIA的節奏從來不是等摩爾定律來推自己,而是自己去推摩爾定律。這次CES傳達的訊號很明確:造更聰明的AI時代過去了,接下來要讓AI用得起。這才是AI真正走進千家萬戶的開始。 (白羊武士弗拉明戈)
黃仁勳談 2026:推理變強了,AI 也更會賺錢了
當AI 圈還在爭論有沒有泡沫,黃仁勳已經在算“推理(Reasoning)”能賺多少錢。2026 年 1 月 8 日,播客 No Priors 上,他這樣說:就算 ChatGPT 沒出現,NVIDIA也會贏。這份自信,源於對計算產業的真實判斷。過去十年,摩爾定律逐漸失效,算力不再自動變便宜。所以加速計算從高端選項變成了“產業標配”。當主持人問起 “2025 年 AI 最讓你驚訝”的進展,黃仁勳沒講多模態、也沒講大模型,答案是:模型推理能力的進化,和它如何成為一門可以定價、可以收費的生意。這意味著,AI 的戰場已經從做大模型轉向了賣推理能力。推理到底怎麼賺錢?誰在為推理付費?這個窗口還能開多久?第一節|推理開始能定價,OpenEvidence毛利率90%過去,AI 的強,主要指兩個方向:會寫、會說。從 ChatGPT 到各種聊天機器人,只要能輸出連貫、像人寫的內容,就算是好模型。但到了企業場景,標準變了。他們不在乎會不會聊天,在乎的是:這個 AI 能給我省多少錢、賺多少錢?要讓 AI 輸出值錢,黃仁勳的回答是:推理能力。這個能力不是模型參數再翻幾倍,而是:根據上下文找準問題,在資料不全時推出合理結論,給出能被醫生、律師、工程師放心使用的答案。有了這種能力,AI 給出的結果就能明碼標價了。他舉了幾個例子:OpenEvidence 做醫療搜尋,推理Token的毛利率達到了90%;Harvey 為律師事務所服務,已經在多個大型律所落地使用;甚至 Claude 企業版,企業也願意為它付費。這說明什麼?過去 AI 輸出不穩定,企業不敢付高價;現在推理讓答案可控,按結果收費成為可能。這個變化有兩個訊號值得特別注意:模型本身不再是唯一賣點。會寫文章、會對話只是起點,能推理、能接任務、能給出可驗證的答案,才是企業考慮是否付費的關鍵。企業願意為推理質量付更高的價。OpenEvidence的高毛利率不是靠壓低成本,而是因為醫生真的把它當可信賴資源在用。當AI從助手變成專業工具,定價邏輯就變了。在這個過程中,最早跑出來的不是消費級產品,而是高度專業場景。醫療、法律、科研、工程……這些地方對答案質量要求極高,恰好讓推理有了明確價格。我們第一次看到,推理從模型的一個小能力,變成了能單獨收費的產品。第二節|真正賺錢的是AI工廠,電工工資翻倍了推理能收費了,但這些能賣錢的Token,是怎麼產出來的?黃仁勳把這個生產場所叫作:AI 工廠。這些工廠 24 小時不停地運算、生成推理結果。但要讓 Token 持續產出,背後得有三樣東西支撐:晶片廠:造出最關鍵的計算晶片超級計算中心:搭建大模型運行需要的硬體AI資料中心:一天24小時不停地產生推理結果這三類工廠,正在美國各地大量建設。而建設這些工廠,需要的不只是技術,更是人。黃仁勳說,他第一次看到電工、技術員、水管工的需求漲得這麼快。電工資格證成了熱門證書。有人專門接 AI 工廠的活,一出差就是一個月。建築工人也被拉到這些新工地,很多州開始出現搶人的現象。這是實實在在的變化: 不是模型參數增長,不是論文數量增長, 而是資料中心大量開工、光纜加速鋪設、電費暴漲、崗位激增。AI 不再只是程式碼和演算法,而是開始像傳統工業一樣,有產線、有工人、有產能指標。這場基礎設施建設確實在創造大量就業。但隨之而來的問題是:當AI真正投入使用後,會不會反過來取代人的工作?黃仁勳認為恰恰相反。他舉了放射科醫生的例子:“八年前,AI 教父 Hinton 預言 AI 會徹底改變放射學,放射科醫生將不再被需要。他說對了一半,現在 100% 的放射學應用都是 AI 驅動的。但放射科醫生的數量不減反增。”原因在於:AI 接管的是任務(研究掃描片),但放射科醫生的目的是診斷疾病、做研究、服務更多病人。當 AI 幫他們更快看完掃描片,他們就能接更多病例、做更深入的研究,醫院效率提高了,反而需要雇更多放射科醫生。這個邏輯不只適用於醫生,也適用於所有使用 AI 推理能力的行業:律師用 AI 處理合同,能接更多案子;工程師用 AI 寫程式碼,能開發更多產品;企業用 AI 做決策,能拓展更多業務。所以 AI 提高了效率,但也釋放了需求。不是 AI 取代人,而是 AI 讓人能做更多以前做不了的事。這也是為什麼基礎設施建設本身,就是 2026 年最確定的商業機會之一。而對於那些想用 AI 做應用的人來說,真正的問題是:推理能收費了,接下來該怎麼做?第三節|成本每年降10倍,小公司也有機會既然推理能賣錢,那誰能抓住這個機會?這聽起來像只有大公司才做得到的事。但黃仁勳指出:“生成推理的成本,每年下降10倍。”“落後 6 個月也不怕,成本降了就能趕上。”於是出現了兩種玩法:一方面,大公司還在籌建下一批超算叢集,爭奪供應鏈;另一方面,小公司已經在開源模型上搭建出垂直服務,開始接單賺錢。比如:生物領域有公司在做端到端分子設計工業領域有公司在做機器人抓取放置系統材料科學有公司在做化學構象預測這些小公司都不做萬能助手,而是只解決一類人的剛需問題。黃仁勳形容這是“在一個小池塘裡先做到極致”。這種專注一個場景做到能收錢的方式,才是接下來五年裡,大多數AI創業者最現實的路徑。而讓這條路徑成為可能的,是開源。黃仁勳說:“沒有開源,初創公司、教育、研究都沒法做。傳統企業也做不了AI 轉型。”他甚至說,中國 AI 公司 DeepSeek 去年開放原始碼的訓練方法,是“對美國AI最大的單一貢獻”。因為它讓矽谷所有初創公司都能學到最前沿的技術,大幅降低了進入門檻。降低門檻意味著:不需要從頭訓練大模型,在開源基礎上做垂直最佳化就夠了;不需要燒掉幾億美元,用更小的成本就能驗證需求。但能做,不等於能做成。關鍵在於:你得知道推理在你的場景裡值多少錢,你得願意去一個小市場快速驗證、快速迭代。不是沒模型就做不了AI,而是你得想清楚:你要解決誰的問題?你怎麼把推理包裝成一個值得付費、值得信賴的數字員工?如果還不確定方向,黃仁勳提到了 2026 年三個值得關注的領域:第一,數字生物學將迎來它的 ChatGPT 時刻。蛋白質理解、多蛋白質生成、化學構象……這些領域正在匯聚合成資料、多模態、推理三大能力。Nvidia 最近開放原始碼的模型就是為多蛋白質理解設計的。第二,汽車不再只是感知加規劃,而是會變成推理汽車。當車遇到從未見過的情況時,它能把複雜場景分解成已知情況,通過推理系統導航通過。Nvidia的自動駕駛堆疊剛剛拿到安全評級第一名。第三,人形機器人或多具身機器人將有巨大突破。黃仁勳說“我們開始得太早了”,自動駕駛經歷了四個時代,而機器人正在用現成的端到端模型加推理系統起步,可能不需要10年就能落地。這三個方向的共同點是:推理能力已經成熟,接下來就是誰先把它變成產品。你不需要幾億美元,但你需要找對一個細分場景,一個真實的痛點。窗口期很短,但機會還在。結語|模型再強,不如結果能賣過去講 AI,是講性能、講模型、講誰更像人。現在講 AI,有個很清楚的衡量標準:能不能讓人願意付錢?推理開始值錢,標誌著三個轉變:模型不再只是看起來厲害,而是能落地、能計價;企業不再只問能不能用,而是問值不值錢;創業者不能再幻想做通用助手,得先做個實用工具。AI 行業的競爭重點變了。模型再強,不如結果好賣。 (AI深度研究員)
【CES 2026】黃仁勳炸場:全新Rubin平台量產,AI推理成本降至十分之一,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作
黃仁勳 CES 2026主題演講:全新Rubin平台正式量產,AI推理成本降至十分之一,推進機器人和自動駕駛生態,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作1. Nvidia與奔馳合作推出Level 2自動駕駛系統,2026年大規模商用要點一:舊金山路測表現出色,可與特斯拉FSD競爭Nvidia在CES 2026上展示了其全新的點對點Level 2駕駛輔助系統,在舊金山約40分鐘的實際道路測試中,該系統搭載在2026款奔馳CLA轎車上,成功應對了複雜的城市交通場景,包括交通訊號燈、四向停車標誌、雙排停車車輛和無保護左轉等情況。Nvidia汽車部門負責人Xinzhou Wu透露,該系統在城市駕駛中的人工接管次數與特斯拉FSD相當,但特斯拉用了約8年才實現城市駕駛功能,而Nvidia預計在約1年內就能達成同樣目標。The Verge要點二:2026年分階段推出,2027-2028年推進L4自動駕駛根據Nvidia的產品路線圖,2026年上半年將發佈支援高速公路和城市駕駛的Level 2系統,包括自動變道、停車標誌和交通訊號識別等功能;下半年將增加自動泊車能力,年底前將覆蓋整個美國。該系統基於Drive AGX Orin晶片,2026年計畫開展小規模L4等級試點,2027年將實現合作夥伴機器人計程車部署,2028年將進入個人擁有的自動駕駛汽車。奔馳CEO Ola Kallenius表示,與Nvidia合作的核心在於安全性,強調"駕駛一個重達4000磅、時速50英里的物體,抱歉是不夠的,必須要有更高的確定性和安全性。"The Verge2. Nvidia發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作要點一:推出業內首個開源推理型自動駕駛AI模型Nvidia在CES 2026上宣佈推出Alpamayo系列自動駕駛AI模型、工具和資料集,這是專為Level 4自動駕駛設計的推理型視覺-語言-行動(VLA)模型,能夠讓車輛像人類一樣感知、推理和行動。該系列包括Alpamayo-1(一個擁有100億參數的鏈式思考VLA模型,已在Hugging Face開源)、AlpaSim(開源端到端模擬框架)以及超過1,700小時駕駛資料的物理AI開放資料集。該模型不僅能接收感測器輸入並控制方向盤、剎車和加速,還能對即將採取的行動進行推理。Constellation Research要點二:奔馳成為首個商用合作夥伴,2026年一季度上路Nvidia CEO黃仁勳宣佈,搭載Alpamayo的首款乘用車將是全新奔馳CLA,該車將採用Nvidia DRIVE全端自動駕駛平台,預計2026年第一季度在美國道路上推出。這一合作歷時至少5年,投入數千名工程師,建構了完整的垂直整合系統。奔馳CLA最近獲得了EuroNCAP五星安全評級。黃仁勳表示:"Nvidia將長期支援這些模型和自動駕駛系統,因為自動駕駛工作是通向機器人技術的橋樑。"此外,Lucid、捷豹路虎、Uber和伯克利DeepDrive也對Alpamayo表示出濃厚興趣。Nvidia Blog | Constellation Research3. 波士頓動力與GoogleDeepMind達成AI合作,Gemini機器人模型將整合至Atlas人形機器人要點一:雙方聯合研發,提升人形機器人物體操控和工業任務能力波士頓動力和GoogleDeepMind在CES 2026上宣佈建立新的AI合作夥伴關係,旨在將DeepMind的Gemini Robotics基礎模型整合到波士頓動力的新一代Atlas人形機器人中。該合作將結合波士頓動力的運動智能與DeepMind的基礎AI能力,重點使人形機器人能夠完成各種工業任務,預計將成為製造業轉型的驅動力,首先從汽車行業開始。聯合研究工作預計將在未來幾個月內在兩家公司同時展開。Boston Dynamics要點二:利用多模態基礎模型,讓機器人具備感知、推理和人機互動能力波士頓動力Atlas項目機器人行為總監Alberto Rodriguez表示:"我們正在打造世界上最強大的人形機器人,我們需要一個能夠幫助我們建立新型視覺-語言-行動模型的合作夥伴,用於這些複雜的機器人。在全世界範圍內,沒有人比DeepMind更適合建構可以安全、高效地部署在各種任務和行業的可靠、可擴展模型。"DeepMind機器人技術高級總監Carolina Parada表示,Gemini Robotics模型基於大規模多模態Gemini模型建構,旨在讓任何形狀和大小的機器人都能感知、推理、使用工具並與人類互動。該合作由波士頓動力的大股東現代汽車集團支援。Boston Dynamics4. Nvidia CES 2026主題演講:發佈Rubin平台,AI算力提升5倍,推進機器人和自動駕駛生態要點一:全新Rubin平台正式量產,AI推理成本降至十分之一Nvidia CEO黃仁勳在CES 2026主題演講中宣佈,公司首個極致協同設計的六晶片AI平台Rubin已進入全面量產。該平台包括Rubin GPU(提供50 petaflops的NVFP4推理性能)、Vera CPU(專為資料移動和智能體處理設計)、NVLink 6擴展網路、Spectrum-X乙太網路光子學、ConnectX-9 SuperNIC和BlueField-4 DPU。Rubin平台承諾將AI token成本降低到原來的十分之一,訓練混合專家模型所需的GPU數量減少至四分之一,並推出AI原生儲存平台,將長上下文推理的每秒token數提高5倍。黃仁勳強調:"你訓練AI模型越快,就能越快將下一代前沿技術推向世界。這關乎你的上市時間,這關乎技術領導力。"Nvidia Blog要點二:發佈Cosmos世界基礎模型和開源物理AI生態系統黃仁勳展示了Nvidia Cosmos開放世界基礎模型,該模型在視訊、機器人資料和模擬資料上訓練,能夠從單張圖像生成逼真視訊、合成多攝影機駕駛場景、從場景提示建模邊緣案例環境,並執行物理推理和軌跡預測。演講中還展示了個人AI智能體在Nvidia DGX Spark桌面超級電腦上本地運行,並通過Reachy Mini機器人具身化的演示。黃仁勳宣佈Nvidia在六個領域建構開源前沿AI模型:Clara(醫療健康)、Earth-2(氣候科學)、Nemotron(推理和多模態AI)、Cosmos(機器人和模擬)、GR00T(具身智能)和Alpamayo(自動駕駛),並強調與西門子擴大合作,將Nvidia全端與西門子工業軟體整合。Nvidia Blog5. 阿里巴巴高德地圖推出AI 3D餐廳展示工具,對標美團爭奪本地生活市場要點一:基於通義萬相視覺模型,餐廳上傳照片或視訊即可生成3D圖像據彭博社報導,阿里巴巴旗下地圖和本地生活服務部門高德地圖即將推出一項AI功能,允許餐廳通過上傳視訊或照片來渲染3D圖像。該技術基於阿里巴巴的通義萬相(Wan)視覺模型,旨在降低商戶的行銷和推廣成本。熟悉該事項的人士透露,阿里巴巴計畫向部分商家免費提供這項技術一段時間。這一舉措是阿里巴巴在中國餐飲和外賣領域與美團競爭的更廣泛努力的一部分。Bloomberg要點二:強化本地生活服務佈局,挑戰美團市場主導地位此次推出3D餐廳展示工具,是阿里巴巴利用AI技術加強與美團在本地生活服務市場競爭的最新動作。美團目前在中國外賣市場、餐廳預訂和本地服務領域佔據主導地位。通過提供更具視覺吸引力的餐廳展示方式,高德地圖希望吸引更多商戶和使用者,擴大其在本地生活服務領域的市場份額。這一策略體現了阿里巴巴將AI技術應用於實際商業場景,以技術創新推動業務增長的思路。Bloomberg6. MiniMax香港IPO定價觸頂至21美元,AI熱潮推動估值達65億美元要點一:定價HK$165觸及區間上限,提前一天停止接受訂單據彭博社報導,上海AI初創公司MiniMax計畫將其香港IPO定價定在每股HK約美元達到其營銷區間的頂部151-HK。知情人士透露該公司通知投資者將以165的價格出售股票,並計畫在當地時間下午5點停止接受機構投資者的訂單,比預期提前一天。MiniMax於2025年12月31日啟動IPO路演,計畫發行2,538.92萬股新股。按最高定價計算,此次IPO將籌集至少42億港元(約5.38億美元),對MiniMax的估值約為65億美元。Bloomberg | Reuters要點二:獲阿里巴巴和騰訊支援,AI熱潮下需求強勁MiniMax得到了阿里巴巴集團和騰訊控股的支援,在AI熱潮的推動下,其IPO展現出強勁的訂單勢頭。該公司專注於生成式AI技術,提供包括文字生成、對話系統等多項AI服務。此次頂格定價和提前停止認購,反映出投資者對中國AI企業的強烈興趣。分析師指出,MiniMax的成功上市將為香港資本市場帶來活力,也體現了全球投資者對中國AI創新能力的認可。該IPO預計將於2026年1月初完成定價。Seeking Alpha7. 富士康Q4營收同比增長22%至827億美元,AI和雲端運算需求強勁創紀錄要點一:Q4營收超預期,12月單月營收同比增長32%創歷史新高台灣富士康(鴻海精密)於2026年1月5日公佈,2025年第四季度營收達到新台幣2.6兆元(約827億美元),同比增長22.07%,環比增長26.51%,創下季度營收歷史新高,超過路孚特SmartEstimate預測的2.418兆新台幣。12月單月營收達到新台幣8,628.6億元(約274.2億美元),同比增長31.77%,創下該月份歷史紀錄。富士康表示,第四季度營收增長顯著超出預期,為2026年第一季度創造了較高的對比基數。Reuters要點二:雲端運算和網路產品業務強勁,AI伺服器需求持續旺盛富士康稱,增長主要由雲端運算和網路產品部門的強勁表現驅動,這得益於AI產品需求的激增。作為輝達最大的伺服器製造商和蘋果最大的iPhone組裝商,富士康2025年全年銷售額首次突破新台幣8兆元大關。該公司表示,儘管2026年第一季度資訊通訊技術產品將進入季節性放緩期,但AI伺服器機架產品的強勁需求預計將使業績處於過去五年區間的高端。富士康還指出,智能消費電子產品部門(包括iPhone)由於匯率不利影響,營收出現小幅下降。Reuters8. 阿里巴巴PANDA AI工具助力醫院發現24例胰腺癌,自2024年11月分析超18萬例CT掃描要點一:AI在常規CT掃描中發現早期胰腺癌,提前挽救患者生命據《紐約時報》報導,中國寧波大學附屬人民醫院自2024年11月作為臨床試驗開始使用阿里巴巴達摩院開發的PANDA(Pancreatic Cancer Detection with Artificial Intelligence,胰腺癌人工智慧檢測)AI工具以來,已分析超過18萬例腹部或胸部CT掃描,幫助醫生檢測出約24例胰腺癌病例,其中14例處於早期階段。該院胰腺科主任朱克雷醫生表示:"我認為可以百分之百地說,AI拯救了他們的生命。"PANDA工具被訓練用於在非對比CT掃描中尋找胰腺癌,這些患者最初因腹脹或噁心等症狀就診,並未直接看胰腺專科醫生,部分CT掃描在被AI工具標記之前並未引起警報。New York Times要點二:通過深度學習突破非對比CT侷限,獲FDA突破性裝置認證PANDA工具利用深度學習技術,通過演算法將2000多名已知胰腺癌患者的對比CT掃描中的病灶位置對應到同一患者的非對比CT掃描上,訓練AI模型在清晰度較低的圖像中檢測潛在癌症。在超過2萬例非對比CT掃描的測試中,該工具正確識別了93%的胰腺病變患者,研究結果發表在2023年《自然醫學》雜誌上。2025年4月,阿里巴巴宣佈PANDA獲得美國FDA"突破性裝置"認證,意味著其審查將被加速以幫助其進入市場。胰腺癌是最致命的癌症之一,五年生存率約為10%,早期檢測極其困難。在寧波醫院,非對比CT檢查費用約為25美元(保險前),該系統正在分析醫生已為其他原因訂購的掃描,因此不會給醫院或患者增加額外檢查成本。New York Times9. Instagram Reels年化收入達500億美元,成為Meta最大增長引擎要點一:五年從零到500億,超越可口可樂和耐克年收入據《華爾街日報》報導,Meta旗下Instagram的短影片功能Reels在2025年第三季度實現了超過500億美元的年化收入營運率(annual run rate)。Meta CEO馬克·祖克柏在2025年10月的財報電話會議上表示:"隨著視訊在我們的應用中持續增長,Reels現在的年化收入已超過500億美元。"這一數字令人震驚,因為Reels於2020年推出時僅是對TikTok的模仿,當時沒有任何收入。五年後,其收入規模已經接近可口可樂和耐克的年收入水平,成為Meta最重要的增長業務之一。WSJ要點二:使用者參與度超越YouTube Shorts,AI推薦系統功不可沒報導指出,Instagram使用者在Reels上花費的時間已經超過YouTube Shorts的觀眾觀看時長。Meta第三季度總營收為512.4億美元,同比增長26%,其中Family of Apps(應用家族)收入達到508億美元,Reels的貢獻佔比可觀。祖克柏將Reels的成功歸功於推薦系統的改進和AI技術的應用,這些技術提高了內容的相關性和使用者參與度。分析師認為,Reels已經從簡單的TikTok複製品轉變為Meta的戰略性AI資產,推動了整個平台的廣告收入增長。創作者經濟的蓬勃發展和AI驅動的變現能力是Reels取得成功的關鍵因素。AInvest10. DeepSeek為聊天機器人新增"交錯思考"功能,月活使用者激增90%至1.315億要點一:推出"交錯思考"深度研究模式,提升複雜查詢處理能力據《南華早報》報導,總部位於杭州的AI初創公司DeepSeek對其旗艦聊天機器人的使用者介面進行了更新,新增了名為"交錯思考"(interleaved thinking)的高級功能。這一功能類似於OpenAI的深度研究(Deep Research)產品,可以執行多步驟研究,在整個過程中穿插"思考"步驟。此前,聊天機器人在生成響應之前會"思考"使用者提供的提示,而"交錯思考"允許模型在每個操作之間進行"思考",增強其研究能力。例如,在打開網頁後,模型可能需要"思考"所讀資訊的可信度,然後決定是否查閱另一份檔案來驗證發現。這一過程對於處理複雜查詢至關重要。South China Morning Post要點二:12月月活使用者暴增90%,新一代模型備受期待報導指出,DeepSeek在2025年12月的月活躍使用者數激增90%,達到近1.315億。《南華早報》測試顯示,DeepSeek的聊天機器人並非總是部署"深度研究"模式,除非收到複雜的查詢提示。一旦該功能被啟動,使用者能夠看到"交錯思考"過程的每一步。這些升級標誌著DeepSeek在消費端的罕見改進,正值業界對其下一代模型的期待不斷升溫之際。分析師指出,隨著DeepSeek在AI模型性能和使用者體驗上的持續最佳化,該公司正在中國AI市場中鞏固其領先地位,並對國際競爭對手構成越來越大的挑戰。South China Morning Post11. 中國量化基金幻方推出iQuest-Coder AI模型,僅400億參數擊敗GPT-5.1和Claude Sonnet 4.5要點一:開放原始碼AI模型在多項基準測試中超越美國競爭對手據《南華早報》報導,總部位於北京的量化交易公司幻方量化(Ubiquant)於2026年1月初發佈了一系列開放原始碼專注型大語言模型iQuest-Coder-V1系列,該系列模型在多項基準測試中聲稱能夠匹敵甚至超越美國競爭對手如OpenAI的GPT-5.1和Anthropic的Claude Sonnet 4.5,儘管使用的參數數量遠少於後者。iQuest-Coder-V1系列專為程式碼智能設計,擅長自動程式設計、偵錯和程式碼解釋等任務,包括70億、140億和400億參數的模型,遠小於GPT-5.1和Claude Sonnet 4.5等領先閉源系統的參數規模(通常在4000億至8000億參數之間)。South China Morning Post要點二:基準測試成績亮眼,400億參數模型比肩國際頂尖水平根據自報資料,iQuest-Coder-V1-40B-Loop-Instruct在SWE-bench Verified基準測試中得分76.2%,接近Claude Sonnet 4.5的77.2%和GPT-5.1的76.3%。該基準測試衡量AI模型解決真實世界軟體工程問題的能力。在BigCodeBench測試中(該測試評估LLM在解決實際且具有挑戰性的程式設計任務方面的表現,不存在污染),該模型得分49.9%,超過Gemini 3 Pro Preview的47.1%和GPT-5.1的46.8%。此外,在LiveCodeBench v6測試中,該模型也展現出色表現。幻方量化繼DeepSeek之後成為中國量化基金進軍AI領域的又一案例,展示了中國金融科技公司在AI研發方面的強大實力和創新能力。South China Morning Post (AI Daily Insights)
輝達仍是王者!GB200貴一倍卻暴省15倍,AMD輸得徹底
AI推理遊戲規則,正悄然改變。一份最新報告揭示了關鍵轉折:如今決定勝負的,不再是單純的晶片性能或GPU數量,而是 「每一美元能輸出多少智能」。AI推理,現已不只看算力硬指標了!Signal65一份最新報告中,輝達GB200 NVL72是AMD MI350X吞吐量28倍。而且,在高互動場景在,DeepSeek R1每Token成本還能低到15倍。GB200每小時單價大概是貴一倍左右,但這根本不重要。因為機櫃級NVLink互聯+軟體調度能力,徹底改變了成本結構。頂級投資人Ben Pouladian稱,「目前的關鍵不再是算力或GPU數量,而是每一美元能買到多少智能輸出」。如今,輝達仍是王者。其他競爭對手根本做不到這種互動水平,這就是護城河。最關鍵的是,這還沒有整合200億刀買入Groq的推理能力。這裡,再mark下老黃至理名言——The more you buy, the more you save!AI推理重心:一美元輸出多少智能?這篇萬字報告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背後的一些本質現象。傳統的「稠密模型」架構要求:在生成每個Token時都啟動模型裡的全部參數。這就意味著:模型越大,運行越慢、成本越高,同時還會帶來相應的記憶體需求增長等問題。MoE架構,正是為了釋放更高水平的智能而生——在每個Token上只啟動最相關的「專家」。摟一眼Artificial Analysis排行榜即可發現,全球TOP 10開源LLM,全部都是MoE推理模型。它們會在推理階段額外「加算力」來提高精準性:LLM不會立刻吐出答案,而是先生成中間的推理Token,再輸出,相當於先把請求和解法「想一遍」。前16名裡有12個是MoE模型這些推理Token往往遠多於最終回覆,而且可能完全不會展示出來。能否既快又便宜地生成Token,對推理部署來說就變得至關重要。那麼,MoE方法的主要約束在那裡?一個核心限制在於「通訊瓶頸」。當不同專家分佈在多塊GPU上時,任何GPU之間通訊的延遲,都會讓GPU空閒等待資料。OpenRouter一份近期報告,超50%的Token會被路由到推理模型上這些「空轉時間」(idle time)代表著被浪費的、低效的算力,並且會直接體現在服務提供商的成本底線上。當評估AI基礎設施的「經濟性」時,一般會聚焦在三個方面:性能(吞吐量與互動性)能效(在既定功耗預算下,可生成的Token數)總體擁有成本(通常以Token/每百萬的成本衡量)基於公開可用的基準測試資料,Signal65對不同LLM架構下AI基礎設施方案進行了對比分析。分析中,團隊採用第三方基準測試所提供的性能資料,來估算相對的Token經濟性。具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結果,用以對比它們在不同模型場景下的真實性能表現及相應的TCO估算。結果顯示,在稠密架構以及較小規模的MoE中,B200性能優於AMD MI355X。當模型擴展到像DeepSeek-R1這樣需跨越單節點的前沿級規模時,GB200 NVL72性能最高可達到MI355X的28倍。在高互動性的推理工作負載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。儘管GB200 NVL72的單GPU小時價格幾乎是這些競爭平台的2倍,但其機架級能力——從NVLink高速互連,到覆蓋72塊GPU的軟體編排——共同推動了這種顯著更優的單位經濟性。價值評估的重心,正在從單純的原始FLOPs,轉向「每一美元所獲得的總體智能」。這一結論非常明確:隨著MoE模型和推理工作負載帶來的複雜性與規模持續上升,行業已無法僅依賴晶片層面的性能提升。能夠在系統層面實現峰值性能的端到端平台設計,已經成為實現低成本、高響應AI服務的關鍵槓桿。「稠密模型」推理,輝達領先Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準,結果如下所示:帕累托曲線清晰顯示出,HGX B200-TRT方案在整個吞吐量與互動性區間內,都具備持續的性能優勢。具體到基線互動性水平,B200的性能大約是MI355X的1.8倍,這為互動式應用部署,以及更高的單GPU並行密度提供了顯著余量。再來看,當互動性提升至110 tokens/sec/user時,這一優勢進一步被放大:B200吞吐量超過MI355X的6倍。整體上,在Llama 3.3 70B測試中,AMD MI355X在單位成本性能方面確實具備一定吸引力。但這種優勢並不能代表更現代的推理技術堆疊,尤其是以MoE架構和高強度推理工作負載建構的系統。MoE推理,輝達領先那麼,在MoE架構上,輝達和AMD表現又如何?中等規模推理:gpt-oss-120BSignal65認為,OpenAI gpt-oss-120B是理解MoE部署特性的一個理想「橋樑案例」。它足夠大,可以把MoE的複雜性暴露出來;但規模又沒有大到離譜,仍然是很多團隊能現實部署並調優的範圍。它處在一個很有用的中間地帶:介於稠密的70B級模型,與市場正在快速轉向的、更前沿的推理型MoE架構之間。在10月下旬資料裡,當目標是100 tokens/sec/user時,B200大約比MI355X快1.4倍;但當目標提高到250 tokens/sec/user時,差距會擴大到約3.5倍,說明越追求「更快的互動」,平台差異越容易被放大。不過,12月上旬的資料則呈現出不同局面。得益於軟體最佳化,兩邊平台的絕對性能都明顯提升:輝達單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。前沿推理:DeepSeek-R1在DeepSeek-R1推理上,測試結果正如開篇所介紹那樣,輝達GB200 NVL72大幅領先。更多資料如下圖所示:基準測試資料展示了一個被重塑的格局:GB200 NVL72讓「超過8塊GPU的張量平行配置」也能進入帕累托前沿,達到單節點平台根本無法匹敵的性能。在25 tokens/sec/user互動性目標下,GB200 NVL72單GPU性能大約是H200的10倍,並且超過MI325X單GPU性能的16倍。這類性能差距,正是能為AI服務提供商帶來「斷崖式」TCO改善的那種差距。當互動性目標提高到60 tokens/sec/user時,GB200 NVL72相比H200帶來了超24倍的代際提升,同時也接近MI355X的11.5倍性能。在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;而到60 tokens/sec/user時,這些優勢進一步擴大:相對單節點B200達到5.3倍、相對MI355X達到11.5倍。GPU越貴,token成本越低輝達從Hopper過渡到Blackwell,並推出GB200 NVL72時,不僅提升了每GPU算力、記憶體頻寬以及NVLink互連頻寬,還對底層系統架構做了重新設計。從8-GPU風冷HGX伺服器轉向全液冷的機架級系統,並把72塊GPU連接在同一個域內,系統成本和複雜度顯然都上升了。據CoreWeave公佈的目錄價,按單GPU口徑,GB200 NVL72價格大約比H200貴1.7倍。不過,每一代新技術的目標之一,就是壓低「每Token成本」。對推理而言,具體就是:實際交付的Token吞吐提升幅度,要超過底層基礎設施成本的提升幅度。而從公開的性能資料來看,這正是GB200 NVL72相比Hopper所呈現出的結果。Signal65把本次的tokenomics(Token經濟學)分析,錨定在前文建立的DeepSeek-R1性能差距上:在25 tokens/sec/user時,GB200 NVL72單GPU性能大約是H200的10倍;在更高的互動點位上,這個差距會更大(24倍)。下表總結了成本歸一化,以及由此得到的「每美元性能」計算:這些結果一開始可能有點反直覺:更「貴」的GPU反而更省錢——因為它帶來的性能提升遠大於價格差異,使得它能以更低成本生成Token。與AMD相比,輝達系統在推理token成本上的一些資料對比:按單GPU口徑,MI355X價格大約只有GB200 NVL72配置的一半;但由於GB200 NVL72單GPU性能優勢從低端接近6倍,到高互動性時高達28倍不等,輝達仍然能提供最高15倍的每美元性能優勢。換句話說,輝達能實現相對每Token成本僅為競爭對手的1/15。結論前沿AI模型的未來,會是更大、更複雜的MoE。隨著模型更深地走向MoE與推理架構,最終效果將不再只取決於原始GPU性能或記憶體容量。平台級設計會成為決定性因素——包括互連與通訊效率、多節點擴展特性、軟體棧成熟度、生態支援與編排能力,以及在並行與混合負載下維持高利用率的能力。從當前趨勢看,來自OpenAI、Meta、Anthropic等前沿公司的旗艦模型,很可能會繼續沿著MoE與推理方向演進。如果這一軌跡成立,輝達將維持關鍵的性能與經濟性優勢。GoogleTPU這類架構也提供機架級方案,但它們對非自家模型的適用性與性能表現仍不明確。本文記錄的性能差異,能夠直接轉化為可量化的商業結果:在既定互動性閾值下,每部署一塊GPU能服務更多使用者,就能降低每個「有用Token」的生成成本,提高每機架的收入潛力(通過規模化交付更高價值的體驗),最終AI企業和部署AI的企業獲得更好的TCO。一個具體例子足以說明量級:當一個平台在某個互動性目標下,能提供28倍的單GPU吞吐提升時,它可以在不需要線性擴大硬體規模的情況下,解鎖新的產品檔位以及更複雜的功能。這就是AI推理「經濟學」,而它會更偏向那些從底層就為MoE與推理時代而設計的平台。 (新智元)
半導體行業的2026,三大關鍵詞
在剛剛過去的2025年,從“寒王”市值飆升,儲存漲價潮席捲全球,到年末摩爾線程、沐曦股份先後上市刷新新股盈利紀錄,半導體毋庸置疑是熱度最高的類股之一。在這一年裡,全球頭部半導體企業合計銷售額突破4000億美元,創下行業歷史新高,2026年這一記錄或有望再度刷新。步入2026年,那些有望成為下一個產業爆點?在外部環境充滿變數的當下,中國半導體產業又將如何前行?綜合各路分析,《科創板日報》為您整理了三個2026年半導體產業關鍵詞:儲存、AI與中國國產化。一場關於成本、技術與供應鏈的全域博弈即將開場。儲存:漲價或將貫穿全年回看2025年,儲存暴漲就引發了高度關注。供需鴻溝面前,行業龍頭報價接連暴漲。多家儲存產業鏈廠商都預計,儲存短缺將持續到2026年。“我們的產品供應與客戶需求之間存在巨大缺口,且這種短缺局面將持續一段時間。” 美光科技首席商務官蘇米特・薩達納表示。TrendForce預計,後續儲存產業資本開支將持續上漲,其中DRAM資本開支將從537億美元增長至613億美元,同比增長14%;NAND產業資本開支將從211億美元增長至222億美元,同比增幅為5%,但對2026年產能助力有限。因此,中銀證券預計,儲存價格上漲趨勢或將貫穿2026年全年。中國中國國產儲存廠商亦在積極開發4F2+CBA的技術架構以應對全球龍頭廠商的技術競爭。4F2+CBA的架構變化有望為供應鏈帶來增量變化。儲存漲價潮下,全球終端產品迎來艱巨成本考驗,手機及PC供應商計畫通過漲價、縮減規格配置、暫緩升級等措施以平衡成本。此前已有消息稱,聯想、惠普、戴爾等PC廠商已著手重新評估2026年產品規劃。其中,聯想已經通知客戶即將進行漲價調整,所有伺服器和電腦報價在2026年1月1日到期,新報價大幅上漲;戴爾正考慮對伺服器和PC產品漲價,漲價幅度預計至少在15~20%區間;惠普 CEO也表示2026年下半年可能“尤其艱難”,必要時將上調產品價格。值得一提的是,上交所官網12月30日晚間顯示,中國第一、全球第四的DRAM廠商長鑫科技申報科創板IPO獲上交所受理,擬募資295億元;招股書披露,公司2025年第四季度利潤超預期。東吳證券指出,長鑫重點在研的CBA這一走向3D的技術將有望釋放後續持續擴產動能,通過這一另闢蹊徑的方式縮小與三星和海力士的代際差,保證擴產量級,其產業鏈公司將充分受益。裝置環節在受益長鑫充裕擴產之餘,部分優質公司還將享受滲透率快速提升,迎來戴維斯連按兩下;部分代工和封測公司將承接長鑫的代工需求。AI:算力資本開支續漲 AI終端創新元年到來AI熱潮持續多時仍未停歇,帶動全球算力產業鏈延續高增長。即便歷經了泡沫論疑慮,但在展望2026年時,多方機構依舊給出了較為樂觀的預期。受益於CSP、主權雲等算力需求擴張、以及AI推理應用的蓬勃發展,TrendForce預計2026年全球八大雲廠商合計資本支出將增長40%,達到6000億美元,全球AI伺服器出貨量將增長20.9%。一方面,產業重點由訓練開始漸漸向推理轉移,同時得益於大模型在架構上的創新,國內外大模型在多模態理解、推理及AI應用層面均實現持續進階,帶動ASIC熱度上升。國海證券預計,2026年資料中心ASIC晶片出貨量有望超800萬顆,2027年有望突破1000萬顆,未來或將與同期GPU出貨量相近。ASIC崛起下,已有公司相關訂單量開始攀升。例如芯原股份日前公告,2025年10月1日至12月25日期間,公司新簽訂單金額達24.94億元,較2024年Q4全期大增129.94%,較2025年Q3全期增長56.54%。其中,Q4新簽訂單金額中絕大部分為一站式晶片定製業務訂單。展望2026年,東吳證券預計中國國產算力晶片龍頭有望進入業績兌現期,看好中國國產GPU受益於先進製程擴產帶來的產能釋放。考慮到中國國產算力晶片各家參與者為爭奪市場份額而搶奪產能資源,看好AIASIC服務商在供應鏈中的關鍵角色。除了上游算力之外,AI產業鏈中,下游終端也是2026年備受期待的一個環節。券商認為,2026年是AI終端創新元年,Meta、蘋果、Google、OpenAI均將有新終端新品推出。AI終端形態以眼鏡為代表,同時有AI pin、攝影機耳機等新形態。伴隨模型迭代和新終端的應用場景開發加速,下一代爆款終端或在大廠創新周期中應運而生。端雲混合為AI場景賦能,端側SoC持續受益於AI創新浪潮。中國國產化:本土晶片設計企業崛起 多環節迎來機遇在半導體產業發展中,“中國國產化”一直是關鍵引擎之一。多家券商認為,從晶圓代工到半導體裝置,產業鏈多環節都有望在2026年進一步打開中國國產化機遇。資料顯示,2017-2025年中國晶片設計企業數量和銷售額均以兩位數復合增速增長。中國晶片設計企業數量由2017年的1380家增長至2025年的3901家,年均復合增速為14%,其中銷售額過億的企業數量由2017年的191家增長至2025年的831家,年均復合增速20%。從銷售額來看,2017年為1946億元,2024年增至6460億元,年均復合增速19%,高於全球半導體銷售額同期6%的增速。此外,此前2022年半導體行業周期下行,中芯國際、華虹半導體、聯電等晶圓代工廠的產能利用率均下降,但中芯國際和華虹半導體產能利用率較早實現觸底回升。券商認為,這主要得益於大陸晶片設計企業的崛起和製造本土化趨勢。晶圓代工方面,東吳證券預計,先進邏輯擴產量級有望翻倍,晶圓代工景氣維持。目前國內先進製程尤其是7nm及以下供給嚴重不足,在海外斷供的潛在壓力和中國國產先進邏輯晶片可預見的需求旺盛,2026年開始出於保供意圖的先進擴產將十分豐厚,中芯國際和華力集團有望持續擴產先進製程;除此之外,更多的主體將擴產14nm。半導體裝置方面,中信建投指出,在行業擴產整體放緩大背景下,中國國產化驅動下的滲透率提升依然是裝置類股後續增長的重要來源。其預計未來裝置中國國產化率將實現快速提升,頭部整機裝置企業2025年訂單有望實現20%-30%以上增長,零部件、尤其是卡脖子零部件中國國產化處理程序有望加快,類股整體基本面向好。頭部客戶的中國國產替代訴求仍較強,不在清單的客戶也在加速匯入中國國產,預計後續中國國產化率提升斜率更陡峭,裝置廠對供應鏈的中國國產化推進也非常迅速。 (財聯社)
震動全行業!Google剛剛打出了一張“王炸”:Gemini 3 Flash,徹底終結AI應用的“燒錢”遊戲!
Google剛悄悄上線了Gemini3Flash——要是光看跑分,它可能不是最扎眼的,但要說顛覆性、對明年預算和產品規模化的影響,這模型絕對排得上頭名。我直接說透:它可不光是“快”和“便宜”這麼簡單,Google這是憑著一己之力,用成本結構對整個AI推理市場搞“降維打擊”呢。01 戰略定位:那是“青春版” , 分明是“部署級核武器”!好多人覺得Flash是Gemini3Pro的“性能縮水版”,這理解真的完全跑偏了!從架構來看,Gemini3Flash是直接搭在Gemini3Pro的推理基礎架構上的,根本不是獨立的弱架構——它共享著同樣的推理骨幹,只是專門針對極低延遲和極低成本做了深度最佳化。Google這兒還拋出個關鍵概念:“思考等級”(ThinkingLevels)。作為業內人,這點你可得吃透:以前不管讓模型干多簡單的活,都得為它的“最大推理深度”付費。但現在有了“思考等級”控制,開發者能根據任務需求,精準調控模型的推理程度。這意味著啥?你再也不用為解決一個簡單的圖像識別問題,花解決複雜數學難題的推理費用——這可是對AI經濟模型的一次根本性顛覆。02 核心吸引力:成本“屠夫”上線 , 把“燒錢”變成“印鈔”價格才是這次發佈的真炸彈。把性能和成本標準化之後,Gemini3Flash的競爭力簡直沒誰了。看組資料就知道,這才是真・成本大跳水:輸入(每百萬Token):才50美分輸出(每百萬Token):僅需3美元這價格有多震撼?比Gemini3Pro、ClaudeSonnet4.5甚至GPT5.2都便宜太多。Google的訊號已經很明確了:Gemini3Pro是給那些追求最大推理深度、不在乎成本的場景準備的;而Gemini3Flash,才是Google要你“部署到任何地方”的模型。它不是智能上的“退步”,而是“每決策支出”(SpendPerDecision)上的一次史詩級下降。03 打破低價迷思:多模態與編碼 , 照樣能打!低價可不代表低能——這正是Flash最讓人興奮的地方。它經過最佳化後,在推理、多模態理解、編碼和長上下文任務裡,都能保持穩定的高水準。A.多模態理解:截圖即程式碼生成 , 成本直接大降多模態工作流以前就是“燒錢”的代名詞,但Flash證明了:不用讓成本爆炸,也能實現前沿能力。在評估截圖和UI元素理解能力的ScreenSpotPro基準測試裡,Flash表現特別能打。想像下這個場景:你給它一張Web分析儀表盤的截圖,它能立馬看懂內容,用HTML、TailwindCSS和Chart.js幫你重建功能相似的網頁程式碼,甚至還能自動加UI推理——比如顯示餅圖的數值和百分比這些細節。這就說明,Flash能以極低的成本做截圖分析、UI推理和視覺理解,壓根不用呼叫最昂貴的模型層級。B.通用推理與持續編碼能力專家級分析:在針對高難度科學和特定領域推理的GPQADiamond測試中 , Flash拿了90.4%的高分 , 跟Gemini3Pro差不了多少——這意味著它完全能勝任技術分析、長篇綜合、專家級問答這些研究密集型任務。編碼代理:在LiveCodeBench上 , Flash的性能和Pro在同一水平。更關鍵的是 , 它能支援連續編碼代理 , 還不會讓你的營運成本“炸掉”——這對所有AI軟體工程公司來說 , 絕對是最大的福音!04 該重新審視你的產品策略了!Gemini3Flash最大的價值,是給所有開發者和企業打開了規模化應用的大門。以前設計AI產品,總免不了在“功能強大”和“使用成本”之間糾結來糾結去。現在Flash憑著前所未有的性價比,直接打破了這個困境。它釋放了一個明確訊號:AI應用的黃金時代,不是由性能天花板決定的,而是由成本地板定義的。 (New基地)
中美領跑全球AI,瑞銀:海灣地區的力量亦不可忽視
中美主導全球生成式AI早已成為不爭的事實,但其他國家也並非都是陪跑角色。瑞銀近期發佈一份研究報告,稱海灣地區憑藉低成本高韌性電力接入的適宜土地,以及支援推理設施建設的強力政策,正成為全球資料中心開發的核心優選區域。據瑞銀測算,在完全折舊的前提下,電力成本佔資料中心整體物料成本的5%-10%。海灣地區充裕的電力容量使其成為建設AI推理設施的低成本區域。此外,海灣地區發展動能正逐步積聚:與超大規模雲服務商、晶片製造商的數吉瓦級合作已逐步落地,貿易限制持續放寬,電網升級計畫與國家級戰略穩步推進,同時終端與企業側對AI推理的旺盛需求,共同構築了良好的產業發展環境。不過,鑑於地緣政治重要性與敏感性,瑞銀判斷用於預訓練的超大型資料中心園區仍大機率保留在美國。Part.01 AI縮放定律近年來,AI資本開支規模與投入強度的大幅增長,源於模型智能度與算力/資料規模的強相關性,這一規律被稱為AI縮放定律。在過去的深度學習時代,該定律發生了範式轉變:更大規模的資料集、高性能硬體及演算法最佳化共同推動算力需求激增。據EpochAI資料,2010-2024年,AI訓練所用算力呈指數級增長,每6個月便實現翻倍,遠高於20世紀50年代機器學習系統誕生初期超20個月的翻倍周期。與此同時,每一輪算力擴容都伴隨能耗的顯著攀升。新一代晶片的單GPU功耗持續走高:輝達晶片的最大功率需求已從安培架構的400瓦,提升至霍珀架構的700瓦、布萊克韋爾架構的1200瓦,預計魯賓架構將達到約1800瓦。除單晶片功耗外,算力叢集規模的擴大進一步推高整體能耗;儘管硬體能效提升可部分抵消算力增長帶來的電力需求,但綜合來看,EpochAI測算2010-2024年,前沿AI模型訓練的總電力需求年均增幅仍超100%。上述趨勢凸顯了電力成本對資料中心營運的關鍵意義——電力已成為資料中心最大的營運成本項。Part.02 合作驅動海灣地區AI基礎設施增長全球頭部生成式AI基礎設施建設方已與海灣地區達成多項合作,其中阿聯的合作項目最為典型:阿聯星門項目2025年5月,輝達、甲骨文與OpenAI宣佈在阿布扎比落地星門項目,複製其在美國的星門基礎設施建設模式。根據規劃,該項目將依託輝達最先進的GB300晶片打造1吉瓦算力容量,且是總投資規模預計達5000億美元的全球星門計畫的組成部分。同時,這也是“面向國家的OpenAI”全球倡議下的首份協議,該倡議隸屬於美國星門計畫,旨在幫助美國以外地區建構自主AI能力。1吉瓦算力叢集將由當地科技企業G42承建,甲骨文與OpenAI負責營運,輝達、思科及軟銀提供技術支援,叢集將落戶阿布扎比新建的美阿AI園區,該園區是整體AI基礎設施基地的一部分,未來總算力規劃達5吉瓦。微軟在阿聯的佈局微軟已承諾2023-2029年在阿聯投資152億美元,其中包括向G42注資15億美元,並近期宣佈在該區域建設200兆瓦資料中心園區。此外,微軟聯合貝萊德、MGX及全球基礎設施夥伴成立AI基礎設施合作聯盟,承諾總投資規模達1000億美元,輝達與xAI已於今年早些時候加入該聯盟。沙烏地阿拉伯的合作項目Google與沙烏地阿拉伯公共投資基金達成100億美元合作,將在沙烏地阿拉伯建設並營運全新的雲與AI樞紐,聚焦區域本土化AI應用。亞馬遜與沙烏地阿拉伯PIF旗下AI企業HUMAIN達成超50億美元投資協議,將打造開創性的“AI專區”,該區域基礎設施將配備約15萬顆晶片(含亞馬遜Trainium晶片及輝達GPU),此投資為亞馬遜此前宣佈的53億美元沙烏地阿拉伯基礎設施投資(2026年投用)的增量項目。高通與HUMAIN達成合作,計畫2026年採用高通加速器建設200兆瓦資料中心,但因細節尚未披露,該項目的確定性低於上述合作。Part.03 海灣地區AI應用落地進展如何?海灣地區是技術前瞻性極強的區域,擁有成熟的消費市場、創新技術資本及強力政策支援。例如,阿聯早在2017年便將AI列為國家戰略優先事項,目標2031年成為全球AI領導者,推動AI在醫療、能源、水務、教育等領域的跨行業融合,並以此提升政府治理效能。因此,海灣地區的終端與企業AI滲透率整體處於全球領先或持平水平:德勤資料顯示,阿聯及沙烏地阿拉伯58%的消費者會每日或每周使用AI工具,顯著高於英國的約20%。微軟AI滲透報告指出,阿聯的人均AI使用量位居全球第一,遠超全球均值。企業端方面,德勤調研顯示海灣合作委員會國家在AI應用意願、工具落地普及率及智能體部署進度上與全球企業基本持平,考慮到AI智能體整合的成本與時間投入,瑞銀預計海灣地區國家AI工具的普及將與全球趨勢同步。瑞銀認為,AI擴散規則的調整及AI縮放定律驅動的算力需求快速增長,為GCC國家成為領先AI基礎設施區域奠定了堅實基礎;疊加充裕電力、深厚資本市場及高技術接受度的消費群體,該區域AI相關基礎設施具備強勁增長潛力。 (智通財經APP)
4倍性能、50%成本降幅!亞馬遜強勢推出Trainium3晶片,AI訓練推理增添新選項!
當地時間 12 月 2 日,亞馬遜雲端運算服務(AWS)在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片,以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。根據首席執行官 Matt Garman 的介紹,新款 Trainium3 晶片的性能是前代產品的 4 倍,並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體,記憶體頻寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。(來源:社交媒體 X)Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片,總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,並大規模支撐推理服務。其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著最佳化使用者體驗,同時降低每次推理請求的成本。AWS 以垂直整合方式打造 Trainium3 UltraServer,從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施,用於消除傳統分佈式 AI 計算的通訊瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部頻寬;增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將複雜模型的訓練時間從數月縮短至數周;處理高並行的 AI 推理請求,以低延遲即時處理數百萬使用者的請求,例如智能對話、視訊生成等;運行特定複雜任務,如智能體系統、專家混合模型和大規模強化學習等。包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium 將訓練和推理成本降低最多 50%。其中,Decart 在即時生成式視訊方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。(來源:社交媒體 X)對於需要更大規模的客戶,EC2 UltraCluster 3.0 可連線千台 UltraServer,構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在兆級 token 資料集上訓練多模態模型,到為數百萬並行使用者提供即時推理服務。自研晶片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說,一個關鍵問題在於:有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。此外,AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化,其實際性能提升將遠超基準數值。其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。為進一步提升單機擴展性能,Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一 MGX 機架內協同工作,為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。這一整合將建構一個靈活、高性能的平台,最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)